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采用 类 心 密度 策略 的 多 目标 微分 自动 聚 类 算法 
BEEF, Ih Zo EZI, Ph OW 


(南京 信息 工程 大 学 信息 与 控制 学 院 ， 南 京 210044) 
摘 X: 针对 聚 类 过 程 中 ， 由 于 类 心 选取 的 随机 性 导致 所 选 类 心 偏离 数据 集 ， 或 者 类 心 过 于 集中 而 带 来 的 错误 聚 类 这 
一 缺陷 的 研究 ， 所 提 算 法 对 类 心 的 选取 进行 两 次 得 选 ， 即 将 类 心 密度 过 小 的 以 及 两 两 类 心 之 间距 离 过 小 的 类 心 分 别 乱 


选 出 来 ， 不 让 其 参与 聚 类 ， 此 后 算法 对 筛选 后 剩余 的 类 心 再 进行 聚 类 。 sn 提出 了 改 
进 的 聚 类 准则 函数 ， 对 聚 类 数目 进行 动态 地 惩罚 。 为 了 评估 所 提 算 法 在 聚 类 问题 上 的 应 用 性 能 ， 选 择 两 种 不 同类 型 的 
数据 集 进 行 了 仿真 实验 。 与 其 他 三 种 现 有 的 自动 聚 类 算法 的 比较 结果 表明 ， 所 提 算 法 能 够 获得 更 好 的 聚 类 结果 ， 从 而 
验证 了 算法 所 提 策 略 的 有 效 性 
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based on class-center density 
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Abstract: In the process of clustering, for the reason that the randomness of the class-center selection may lead to the 


phenomenon that the selected class-center deviates from the data set, or the class-center is too centralized, the proposed algorithm 


selects the class-center for two times: The class-centers which have too small density or have small distances between pairs of 


g h - class-centers are screened out, and the algorithm does not allow them to participate in clustering. Then the algorithm continues 


to cluster the remaining class-centers. In order to make the algorithm get the optimal class-center quickly, we propose an 


improved clustering criterion function to penalize the number of clusters dynamically. In order to evaluate the performance of 
the proposed algorithm on clustering problems, experiments on two types of data sets are carried out. Compared with the other 
three existing automatic clustering algorithms, simulation experiments show that the proposed algorithm can obtain better 
clustering results, which validates the effectiveness of the proposed strategies. 
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evolution 
$e 构 简单 、 优 化 结果 稳定 等 优点 ， 因 此 ， 越 来 越 多 研究 者 开始 将 
F 其 应 用 到 多 目标 优化 问题 的 求解 中 


在 科学 研究 和 工程 设计 过 程 中 ， 很 多 具体 问题 都 可 以 归纳 聚 类 分 析 技 术 作 为 一 门 数据 分 析 工 具 和 方法 ， 在 许多 应 用 
为 参数 优化 问题 。 而 现实 当中 ， 这 些 优化 问题 往往 会 有 多 个 设 。 和 研究 领域 都 有 着 广阔 的 应 用 。 然 而 现实 中 的 大 多 数 数据 都 是 
计 目 标 ， 这 些 目标 互相 矛盾 ， 彼 此 制约 。 表 现 为 一 个 目标 的 性 ”没有 任何 先 验 知识 的 ， 数 据 的 类 别 数 无 法 预先 确定 ， 这 些 问题 


能 优化 往往 会 使 得 其 它 至 少 一 个 目标 的 性 能 退化 ， 即 多 个 目标 可 以 归结 为 自动 聚 类 问题 B1]， 即 在 不 预先 指定 聚 类 个 数 的 情况 
很 难 同时 达到 最 优 ， 通 常 称 这 类 问题 为 多 目标 优化 问题 中 。 下 对 数据 进行 自动 正确 的 聚 类 。 

微分 进化 算法 (differential evolution，DE) 是 由 Store 和 近年 来 ， 国 内 外 学 者 提出 了 许多 自动 聚 类 算法 。Das 等 
Price 于 1997 年 提出 的 一 种 基于 群体 差异 的 启发 式 并 行 搜索 方 ” 在 2008 年 提出 基于 改进 微分 进化 的 自动 聚 类 算法 ACDE 只 , 该 


pa 
P, DE 算法 由 初始 化 、 变 异 、 交 叉 、 选 择 等 操作 组 区 别 ”算法 对 基本 的 微分 进化 算法 中 变异 因子 和 交叉 因子 进行 了 改进 ， 
于 其 他 优化 算法 ，DE 算法 的 进化 个 体 扰动 是 通过 多 个 个 体 的 。 并 且 采 用 实数 、 定 长 的 染色 体 编码 方式 ， 使 得 算法 能 够 实现 自 
差分 信息 来 体现 的 。 DE 具有 收敛 速度 快 、 控 制 参数 少 , 并 且 结 RX. Maulik 等 人 在 2009 年 和 2010 年 分 别提 出 了 ACDE f 
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两 个 改进 算法 ADEFCGI 和 MoDEAFCI[d， 其 中 算法 ADEFC 加 
入 了 模糊 划分 测度 ， 用 模糊 C- 均 值 聚 类 (FCM) 来 更 新 聚 类 中 
心 ; 算法 MoDEAFC 在 算法 ADEFC 基础 上 改进 了 微分 进化 的 


含 的 最 大 聚 类 数 内 ， 则 个 体 可 以 表示 为 : 
人 
其 中 ， 类 心 Cj = (Cii Ciz; ^, Cia): Ti 表示 标签 位 阔 值 ， 与 Ci 


变异 操作 。 上 述 算法 的 不 足 之 处 是 仅 用 一 个 指标 作为 聚 类 准则 
函数 ， 针 对 不 同 的 数据 集会 有 不 同 的 聚 类 效果 ， 算 法 的 鲁 棒 性 
比较 差 。2014 年 ，Rodriguez 等 人 在 《Science》 上 提出 了 密 

RKF (RLCLu) D。 密 度 峰 聚 类 是 一 种 新 的 基于 密度 的 
聚 类 算法 ， 该 算法 主要 分 为 两 个 步骤: 通过 “决策 图 ”人 工 选 
取 密 度 峰 ， 也 即 类 心 ， 分 配 剩 余数 据点 得 到 聚 类 结果 。 该 算法 
能 够 发 现 非 球形 簇 ， 但 却 无 法 自动 确定 类 心 ， 特 别 是 针对 一 些 
特殊 数据 集 ， 通 过 决策 图 人 工 选取 类 心 时 容易 出 错 。 针 对 
RLCLu 算法 这 一 缺陷 , 李涛 提出 了 一 种 自动 确定 类 心 的 密度 峰 
聚 类 算法 (ADPC) 加。 该 算法 主要 分 三 步 实现 : a) 计 算 每 个 数 
据点 的 局 部 密度 和 该 点 到 有 具有 更 高 密度 数据 点 的 最 短 距离 ，b) 
根据 排序 图 自动 确定 类 心 ; c) 将 剩 下 的 每 个 数据 点 ， 分 配 到 比 


R RE 


c 


其 密度 更 高 且 距 其 最 近 的 数据 点 所 属 的 类 别 ， 并 根据 边界 密度 
识别 噪声 点 ， 得 到 聚 类 结果 。 然 而 ， 该 算法 的 不 足 之 处 在 于 ， 
面 对 一 些 艇 内 没有 密度 峰 或 同时 具有 多 个 密度 峰 的 复杂 流 形 结 


构 数据 集 时 ， 会 出 现 能 够 自动 确定 类 心 却 无 法 得 到 理想 聚 类 结 
果 的 问题 。 为 了 解决 算法 RLCLu 的 缺陷 ，Ye 等 人 外 亦 对 其 进 
行 了 改进 , 主要 针对 RLCLu 采用 的 “ 若 一 个 点 的 距离 偏差 乘 上 
该 点 的 局 部 密度 所 得 到 的 值 最 大 ， 则 选择 该 点 为 聚 类 中 心 ”这 
测度 进行 了 改进 ， 提 出 了 进一步 计算 该 点 所 得 测度 到 集合 中 
其 它 剩 余 点 测度 之 间 的 绝对 差 值 ， 从 而 扩大 了 聚 类 中 心 同 其 它 
点 之 间 的 差异 性 ， 为 机 器 自动 聚 类 黄 定 了 基础 ， 其 不 足 是 由 于 
类 心 选 择 的 随机 性 ， 也 会 出 现 能 够 自动 确定 类 心 却 无 法 得 到 理 
想 聚 类 结果 的 问题 。 
针对 聚 类 过 程 中 ， 由 于 类 心 选取 的 随机 性 易 导 致 错误 聚 类 
这 一 缺 隐 ， 以 及 在 事先 不 知道 聚 类 个 数 的 情况 下 ， 如 何 对 数据 
进行 自动 而 准确 的 聚 类 这 些 问 题 ， 本 文 在 多 目标 微分 进化 算法 
的 基础 上 ， 结 合 改进 的 类 心 密度 策略 以 及 聚 类 有 效 性 指标 ， 提 
出 了 采用 类 心 密度 策略 的 多 目标 微分 自动 聚 类 算法 CA Multi- 
Objective Differential Evolution Automatic Clustering Algorithm 
Based on the Class-Center Density，MODEAC-CD )。MODEAC- 
CD 首先 对 类 心 进行 两 次 盘 选 ， 即 将 类 心 密度 过 小 的 以 及 两 两 
类 心 之 间距 离 过 小 的 类 心 分 别 筛选 出 来 ， 不 让 其 参与 聚 类 ;， 然 
后 对 剩 下 的 类 心 ， 按 照 数据 集中 各 数据 距离 某 一 类 心 最 近 的 原 
则 进行 聚 类 。 将 该 策略 与 多 目标 微分 进化 算法 相 结合 ， 采 用 类 
内 距离 与 改进 的 类 间距 离 作为 评价 聚 类 质量 的 两 个 准则 函数 ， 
有 效 地 增加 了 聚 类 的 准确 性 和 收敛 速度 。 


1 ”类 心 密度 策略 


1.1 个 体 编码 方式 

与 传统 的 基于 进化 算法 的 聚 类 算法 编码 方式 不 同 ， 本 文采 
用 一 种 基于 实数 、 定 长 的 染色 体 编码 方式 外 。 假 设 对 具有 n 个 
点 的 数据 集 ， 每 个 数据 点 有 4 维 ，Knax = Vn 为 每 个 体 可 能 包 


对 应 , 它 决 定 了 类 心 Ci 是 否 被 激活 参与 聚 类 。T， 是 实数 ， 
E Tero,1]。 


在 该 个 体 编码 方式 中 ， 聚 类 中 心 的 激活 遵循 一 定 的 规则 : 
当 Ti > 0.5 时 , 其 所 对 应 的 类 心 C; 被 激活 ,然后 算法 根据 激 
活 的 类 心 进行 聚 类 。 和 群体 中 每 个 个 体 都 由 标签 位 阔 值 和 类 心 两 
部 分 组 成 ， 因 此 ， 个 体 的 总 长 度 为 Kmax + Kmax xd。 前 面 的 
Kmax 个 Ti 表示 标签 位 阔 值 , 后面 的 Kmax x d 个 基因 位 表示 
类 心 。 


1.2 类 心 偏离 数据 集 的 改进 

文献 [7 介绍 了 如 果 一 个 数据 点 被 看 做 是 聚 类 中 心 ， 应 该 满 
足 两 个 基本 条 件 : 该 数据 点 被 密度 相对 较 低 的 邻 域 点 所 包围 ; 
该 点 与 其 他 密度 更 高 的 点 之 间距 离 应 相对 较 大 。 基 于 该 思想 ， 
本 节 提 出 了 针对 类 心 偏离 数据 集 的 改进 策略 ， 并 在 1.3 节 给 
了 针对 类 心 过 于 集中 的 改进 策略 ， 用 以 选择 较 好 的 聚 类 中 心 。 

设 进化 算法 的 群体 规模 为 Ny， 如 前 述 ， 每 个 个 体 V 含有 
Kmax 个 类 心 ， 因 此 一 共有 (N) x Kmax 个 类 心 ( 每 个 类 心 的 每 一 
维 取 值 , 均 是 在 待 聚 类 数据 的 每 一 维特 征 取 值 范围 内 随机 生成 )。 
针对 类 心 偏离 数据 集 的 改进 策略 实现 步 又 如 下 : 

a) 将 N x Kmax 个 类 心 看 做 是 待 聚 类 的 数据 ， 并 且 计 算 两 
两 类 心 之 间 的 欧 氏 距离 ， 得 到 一 个 距离 矩阵 
M 


上 上 


(NxKmax) X CNXKnax) 3 
b) 由 距离 矩阵 M 分 别 计算 每 一 个 类 心 与 其 他 所 有 类 心 之 间 

距离 的 均值 ， 得 到 一 个 平均 距离 组 记 为 {Rg},， q = 12,-- (N) x 
Kmax， 该 平均 距离 组 {Rg} 能 够 很 好 地 反映 待 聚 类 数据 集中 ， 各 
类 心 之 间 的 分 布 情况 。 通 常 ，{Rg} 中 某 一 标量 均值 越 小 ， 则 其 
所 对 应 的 类 心 处 于 数据 集 稠密 区 域 的 可 能 性 越 大 ; 

oO) 计算 {Rg} 的 均值 ， 得 到 一 个 标量 均值 记 为 Rs, 根 据 一 组 数 
据 的 均值 , 能 够 反映 出 该 组 数据 的 集中 程度 这 一 特征 , 将 Rs 看 
做 是 在 待 聚 类 数据 集中 统计 所 有 类 心 拥 有 近邻 个 数 的 阔 值 ; 
d) 对 于 第 gq 个 类 心 (q = 1,2,…(N) X Kmax); 找 出 与 它 之 间 
的 距离 小 于 阔 值 Rs 的 其 他 类 心 个 数 ， 用 数组 {Da} 记录 ，9 = 
12,…(N) x Kmax， 并 将 其 看 做 是 第 gq 个 类 心 的 密度 ; 

6) 计算 这 个 数组 {Da} 的 均值 ， 得 到 一 个 标量 均值 记 为 Rs. 
从 数组 {Dgq} 中 找 出 类 心 密度 小 于 阔 值 Rs 的 类 心 ， 并 依次 将 与 
这 些 类 心 配对 的 标签 位 阔 值 修改 为 0~0.5 的 一 个 实数 ， 目 的 是 
不 让 它们 参与 聚 类 。 同样 , 将 类 心 密度 大 于 阔 值 Rs 的 类 心 标签 
位 闵 值 ， 依 次 修改 为 0.5~1 的 一 个 实数 ， 目 的 是 让 它们 参与 聚 
类 。 

图 1 给 出 了 所 提 算 法 MODEAC-CD 在 模拟 数据 集 longl0o 
上 筛选 类 心 的 过 程 ， 其 中 x A, y 轴 为 各 类 心 在 2 维 空间 上 的 
坐标 表示 。 如 图 1 中 序号 为 1、2 的 数据 点 ， 由 于 它们 处 于 某 一 
个 类 别 的 边界 ， 将 会 因为 其 对 应 的 类 心 密度 远 远 小 于 阔 值 Rs 


T 
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而 被 筛选 出 来 不 让 其 参与 聚 类 ， 这 样 做 可 以 有 效 地 避免 随机 所 
选择 的 聚 类 中 心 偏离 数据 集 。 

为 了 保证 每 个 个 体 玉 中 至 少 有 2 个 类 心 参 与 聚 类 ， 所 采取 
的 措施 是 : 当 个 体 V PARA 1 个 类 心 参 与 聚 类 时 ， 除 这 个 类 心 
外 ， 在 个 体 亚 中 再 选择 一 个 密度 最 大 的 类 心 参与 个 体 V RK, 
并 将 其 配对 的 标签 位 阔 值 修改 为 0.5~1 之 间 的 一 个 实数 ， 若 个 
体 玉 中 没有 类 心 参与 聚 类 时 , 则 选择 该 个 体 玉 中 前 两 个 密度 最 
大 的 类 心 参与 聚 类 ， 并 将 它们 配对 的 标签 位 阔 值 修改 为 0.5~1 
之 间 的 一 个 实数 。 


图 1 算法 MODEAC-CD 在 模拟 数据 集 longl 上 筛选 类 心 过 程 
13 ”类 心 过 于 集中 的 改进 

以 上 操作 在 一 定 程度 上 改善 了 类 心 人 1 
同时 也 可 能 使 选择 的 类 心 过 于 集中 ， 
一 定 的 困难 。 因 此 ， 针 对 类 心 过 于 集中 的 问题 ， 
下 改进 ， 具 体 步 又 如 下 : 

a) 为 了 判断 两 两 类 心 之 间 是 否 过 于 集中 , 本 文采 用 了 文献 
RESAN TES 。 ，Ro 为 1.2 节 中 
定义 的 第 g 个 类 心 与 其 他 所 有 类 心 之 间距 离 的 均值 (9q = 
12,…(N) x Knax); 

b) 对 于 个 体 V, RE V 中 参与 聚 类 的 且 类 心 密度 最 大 的 
类 心 q1， 求 出 该 类 心 qi 与 个 体 V 中 其 余 参 与 聚 类 的 类 心 之 
间 的 欧 氏 距离 ,并 从 中 筛选 出 距离 小 于 冰 值 Rz7 的 类 心 ， 认 为 二 
中 的 这 些 类 心 与 玉 中 类 心 密度 最 大 的 类 心 qq 之 间距 离 过 小 。 
为 了 不 让 这 些 类 心 参与 聚 类 ， 将 其 配对 的 标签 位 阔 值 修改 为 
0-0.5 的 一 个 实数 ; 

c) EA Ms 亚 中 剩 下 的 参与 聚 类 的 类 心里 ， 找 出 类 心 密度 
第 二 大 的 类 心 qz， 使 用 同样 的 方法 筛选 出 与 类 心 密度 第 二 大 的 
类 心 qz 距 离 小 于 阔 值 RY 的 类 心 ( 此 时 , qi 不 再 参与 筛选 过 程 )， 
将 相应 类 心 的 标签 位 阔 值 修改 为 0~0.5 的 一 个 实数 ， 使 其 不 
参与 聚 类 ; 

d) 依 此 类 推 , 直到 找 出 该 个 体 中 参与 聚 类 的 最 后 一 个 类 心 。 

如 图 1 所 示 ， 序 号 为 3、4 的 数据 点 是 模拟 数据 集 longl 
实际 的 2 个 类 心 ， 而 序号 为 5、6 这 样 的 数据 点 ， 它 们 是 处 于 
某 一 个 真正 类 别 中 心 周围 的 类 心 ， 将 其 称 为 潜在 类 心 。 若 此 时 
将 序号 3 看 作 是 当前 个 体 信 参与 聚 类 且 密 度 最 大 的 类 心 ， 假 
设 序号 5 与 序号 3 的 距离 小 于 阔 值 R37， 那 么 按照 上 面 所 
述 ， 序 号 5 这 个 类 心 将 会 被 淘汰 。 以 后 ， 若 将 序号 4 看 作 是 NV 


离 数据 集 的 缺陷 ， 但 
从 而 给 选择 类 心 聚 类 带 来 
进一步 作 了 如 


H. rH 
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参与 聚 类 且 密 度 第 二 大 的 类 心 ， 且 序号 6 与 序号 4 的 距离 小 于 
BUE Ri?， 那 么 接 下 来 被 淘汰 的 类 心 将 会 是 序号 6。 这样 做 可 
以 有 效 地 避免 由 于 所 选 类 心 过 于 集中 而 带 来 的 错误 聚 类 。 
随后 ， 判 断 个 体 玉 中 参与 聚 类 的 类 心 个 数 。 若 小 于 2 个 
( 即 仅 有 一 个 类 心 密度 最 大 的 类 心 )， 则 求 出 与 类 心 密度 最 大 
的 类 心 距离 最 远 的 类 心 ， 让 其 参与 聚 类 ， 并 将 其 配对 的 标签 位 


修改 为 0.5~1 之 间 均 匀 分 布 的 一 个 随机 数 。 
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2.1 


聚 类 准则 函 


采用 类 心 密度 策 
SES 


本 文 提出 


出 的 多 


标 微 


Tit] p 
Gy s 


数 : 


误差 


平方 和 准 


则 


分 自动 聚 类 算法 同时 优 
函数 Gc。; 改进 的 类 间距 


2.1.1 误差 平方 和 准则 函数 


误差 平方 和 准 


其 中 : c 是 个 
j 类 的 类 心 ， 


该 值 越 小 ， 表 


fk y PS 
nj 是 分 配 到 第 j 
中 的 第 个 数据 点 ，G 
的 是 n 个 数据 点 聚 外 


明 聚 类 效果 


"m 
Ge = XN. 


到 类 的 类 


-of 


心 个 数 ， 


类 中 的 数据 点 个 数 ， 


Gc 是 数据 点 和 类 心间 距离 的 函数 ， 
EJ c 个 类 时 ， 所 产生 的 总 的 误差 平方 和 。 


越 好 。 


2.1.2 类 间距 离 和 准则 函数 


类 间距 离 和 准 


如 下 : 


为 全 部 数据 点 每 一 维 的 均值 构成 的 向 量 。 
数据 点 的 先 验 概率 ， 
据点 总 数 的 比率 。 Gp1 描 述 了 不 同类 心 之 
质量 越 高 。 


大 ， 表 明 聚 类 


式 (3) Y 


看 出 ， 
多 的 类 心 。 
得 到 有 效 的 村 


为 


则 函数 


蕴 述 的 是 类 与 类 之 间 的 


Gp1 
其 中 : mj 为 第 7 类 中 所 


= Xi, pj(m; - m)” (m; - m) 


TA 


ks RE HE 


FP 的 类 间距 离 和 准则 函数 Gp1， 描 述 
间 的 分 离 程 度 ， 该 值 越 大 ， 表 明 聚 类 质量 越 高 。 
为 了 使 Gp1 尽 可 
使 算法 


了 
COS X 


它 描述 


能 大 , 在 演 
能 够 较 快 地 得 到 最 优 的 类 
I 分 , 所 提 算 法 对 原先 的 Gp, 进行 了 改进 , 动 


的 是 第 7 类 中 数据 点 


Cj 212, c) 


的 均值 构成 的 
而 pj 为 第 j 


间 的 分 离 程度 , 该 


略 的 多 目标 微分 自动 聚 类 算法 


化 两 种 聚 类 准 
离 和 准则 函数 


则 函数 描述 的 是 类 内 距离 [12], 定 义 如 下 : 


Q) 


G) 是 第 j 


Xk 


i Fi is 


E 它 描 


EAN], EX 


(3) 
HÆ, m 
类 中 所 有 
个 数 占 所 有 数 
值 越 


rie 


公式 中 可 以 


期 ， 个 体 更 


A 惩罚 类 心 


fas 45 


其 中 : Gp; 


0 


最 大 迭代 次 数 。 
而 当 
基于 改进 的 类 


1/c” 越 小 ; 


数 


当 


其 他 
t < 0.5 


t > 0.5 X tmar, X c PEE 


Ip: 


c。 改 进 的 类 间 

Gy — 1/c 
按 式 C30 WAME, d= 
f —2 Xt/tmax t< 0.5 X tmax 


xX Gp 


距离 和 准则 函数 Gy 描述 


倾向 于 找 出 更 
心 个 数 ， 从 而 


为 
a 
k= 


k 
c? , 


t 为 当前 迭代 次 数 ， tmax 为 


X tmax 时 ，c 被 动态 地 惩罚 


E By RIVE 


则 函数 G。， 使 得 算法 


Ei], t 越 小 ， 
ij, Hüc'— c. 


能 够 在 演化 初 


录用 稿 


期 避免 找 出 太 多 的 类 心 个 数 ， 从 而 影响 后 
也 提高 了 进化 效率 。 


看 的 演化 过 程 ， 有 效 


2.2 解 的 选择 策略 

多 目标 聚 类 算法 最 终 求 得 的 不 是 一 个 单一 的 聚 类 解 ， 而 是 
一 组 Pareto 最 优 聚 类 解 ， 这 些 单独 的 分 组 对 应 着 目标 之 间 的 不 
同 权 衡 。 而 本 文 求解 的 聚 类 问题 的 结果 应 为 一 个 县 体 的 最 优 聚 
类 方案 。 因 此, 所 提 多 目标 微分 自动 聚 类 算法 在 求 得 一 组 Pareto 
最 优 聚 类 解 后 ， 还 需要 一 个 最 优 解 的 选择 过 程 。 目 前 常用 的 解 
选择 方法 有 Ding 等 人 [提出 的 Gap Statistic, 用 于 评估 聚 类 的 
个 数 ;Nafchi 等 人 [5 提出 利用 Pareto 最 优 解 集 的 MS(Minkowski 
score) 指标 值 作为 选 解 策略 ， 选 择 MS 指标 最 小 的 解 作为 聚 类 
问题 的 最 优 解 。 本 文 算法 从 求 得 一 组 Pareto 最 优 聚 类 解 中 ， 选 
择 准 确 率 09 最 高 的 解 作 为 最 后 聚 类 得 到 的 最 优 解 ， 该 准确 率 衡 
量 了 预测 正确 的 数据 量 占 总 预测 数据 量 的 比率 。 
2.3 ”所 提 算 法 MODEAC-CD 的 流程 

a) 初 始 化 。 微 分 进化 算法 中 的 变异 算 子 和 交叉 算 子 各 包含 
一 个 参数 : 变异 因子 已 和 交叉 因子 CR。 设置 和 CR 的 值 
体 取 值 见 3.3 节 参 数 设 置 )， 设 置 算法 的 最 大 目标 评价 次 数 为 
规定 ndrchive 为 外 部 存储 器 Archive fg 
量 , 根据 式 (1) 的 个 体 表 示 方 式 ， 生 成 规模 为 N 的 初始 父 代 群 
fk: 

b) 对 父 代 群体 P 中 每 一 个 个 体 执行 如 下 操作 : 

(a) 根 据 1.2 节 、1.3 节 筛 选 类 心 ; 

(b) 更 新 类 心 后 对 数据 集 进行 聚 类 ， 即 将 每 个 数据 点 归 类 到 
与 其 距离 最 短 的 类 心 所 在 的 类 中 ， 并 依据 式 (2)(4) 计算 出 个 


nmb obj max ， 


体 的 目标 值 ， 令 目标 评价 次 数 计数 器 nmb. obj = N; 
(c) 确 定 出 已 中 的 非 支配 解 集合 ， 并 将 其 存 于 外 部 存储 器 
Archive 中 。 
0c) 对 父 代 群体 已 进行 微分 进化 操作 , 生成 子 代 群体 Q, 
体 生成 步骤 如 下 ; 
(a) 首 先 对 群体 已 采用 DE/rand/2 变 异 策略 和 二 项 式 交叉 
策略 ， 生 成 子 代 群体 NPOP1，DE/rand/2 变异 策略 和 二 项 式 
交叉 策略 的 表达 式 分 别 如 式 C50 (6) 所 示 。 


Vi = Xp4 + F(Xy2 — Xr3 + Xr4 — Xrs) (5) 
ms v; ;(rand;[0,1] € CR)s&(j = jrand) ©) 
i x; else 


其 中 : 变异 策略 DE/rand/2 中 的 3 个 随机 个 体 xp s Xr3> Xrs 
取 自 群体 P. BWA xa. x2 取 自 外 部 存储 器 Archive, H 
X11 E X2 E Xr3 E Xr E Xr ， 变 异 因 子 环 是 区 间 [0.8,0.9] 内 均 
匀 产 生 的 随机 数 ，v 是 经 过 变异 后 得 到 的 第 i 个 中 间 个 体 ， 
randj[0,1] 为 [0,1] 之 间 满 足 均匀 分 布 的 随机 数 。jrand 为 从 
{1,2,… dj 中 均匀 随机 产生 的 整数 ，4 为 决策 变量 的 维 数 ，xij 
为 当前 个 体 xi 的 第 j HE, vi; 为 中 间 个 体 v; BJE, uij 
为 子 代 个 体 ui 的 第 j 维 ; 

(b) 对 P 再 采用 DE/current 一 to 一 best/1 变异 策略 和 二 项 
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式 交 了 又 策略 ， 生 成 子 代 群体 NPOP 
DE/current — to — best/1 变异 策略 如 式 (7) Bp. 
Vi = Xi + Fi(Xpest — Xi) + F2(Xy2 — Xr3) (7) 
其 中 : 两 个 随机 个 体 x22. x23 和 当前 个 体 x; WA P, Xpest 
个 体 随机 取 自 外 部 存储 器 Archive, Hx,z Xr3 Xi  Xpest: 
变异 因子 FQ. FQ 是 区 间 [0.8,0.9] 内 均匀 产生 的 随机 数 ; 
(0c) 将 生成 的 子 代 群体 合并 ， 得 到 子 代 群 体 @， 
即 Q = NPOP1U NPOP2 ; 
DRHE b) 中 的 步骤 (a)(b)， 对 生成 的 子 代 群体 @ 中 的 每 个 个 
体 执行 类 似 操作 ， 累 计 目 标 评价 次 数 为 nmzb_obj = nmb_obj + 
RI “|.| 表 示 集 合 中 元 素 个 数 ) , 求 出 & 中 的 非 支 配 解 集 ， 并 将 其 
与 4rchive 合 并 ; 
6) 更 新 与 裁减 父 代 群体 P 和 外 部 存储 器 Archive. ^ P = 
PUQ, 若 |P| > N ， 则 采用 基于 指标 lL IREX P; 从 
Archive 中 确定 出 非 支配 解 ， 并 赋 给 Archive, |Archive| > 
nArchive ， 则 采用 基于 Lp- 范 数 距 离 的 多 样 性 维护 策略 对 
Archive 进行 更 新 ;对 该 过 程 作 如 下 几 点 补充 : 
(a) Ig, 指标 描述 了 在 目标 空间 中 ， 一 个 解 支配 另 一 个 
解 所 需要 的 最 小 距离 14， 其 公式 如 下 ; 
l+ 1, X2) = mine(fi(X1) — € < fi(x2)1 xi m) (8) 
其 中 :m 为 目标 维 数 ， 根 据 这 个 指标 为 个 体 分 配 相应 的 适应 值 ， 
A (9) 给 出 了 个 体 xi BIEN EU 
F(X1) = Xn) —e /e+ 0220/0905 (9) 
对 群体 进行 更 新 时 ， 将 适应 值 小 的 个 体 依次 从 群体 中 移 除 ， 直 
到 满足 规定 的 群体 规模 为 止 。 
(b)Lp- 范 数 的 定义 如 下 [31; 
Lp(x, y) = [Ef yP (10) 
其 中 :qd 表示 决策 向 量 的 维 数 ,Lp(x,y) 表示 在 d 维 决策 空间 中 ， 
向 量 x = (pexa) 与 向 量 y= (yy…,ya) 之 间 的 Lp- 范 
数 距 离 。 当 Archive 中 的 个 体 数 量 超出 规定 的 容量 时 ， 首 先 将 
Archive 中 在 每 个 目标 上 具有 最 大 /最 小 目标 值 的 个 体 加 入 一 个 
空 的 外 部 存储 器 Archive: 中 ， 然 后 每 次 从 Archive 中 ,选择 
距离 Archive: 中 现 有 个 体 最 短 Lp- 范 数 距离 值 最 大 的 个 体 加 
入 Archive: ， 如 此 反复 直到 Archive: 中 解 的 个 数 达 到 最 大 
容量 ndrchive。 此 时 ， 令 4rchive = Archive’ 。 
有 判断 终止 条 件 。 如 果 目 标 评价 次 数 nmb_obj 达到 对 应 问 
BL nmb obj max ， 则 算法 停止 , 将 当前 外 部 存储 器 Archive 
作为 近似 的 Pareto 最 优 解 集 ， 选 择 其 中 准确 率 最 高 的 一 个 解 作 
为 最 优 解 输 出 ， 否 则 ， 转 至 Step. 


2.4 算法 时 间 复 杂 度 分 析 

设 问 题 的 目标 个 数 为 m， 群 体 规模 为 V， 所 提 算 法 
MODEAC-CD 的 时 间 复 杂 度 主要 包括 以 下 几 个 方面 : a) 在 对 
类 心 筛 选 的 过 程 中 ， 其 最 大 时 间 复 杂 度 为 0((KnaxN)2) = 
O(nN?); b) 从 生成 的 子 代 群体 中 确定 非 支配 解 其 复杂 度 为 
O( Nlog"N)!7; c) 采用 基于 指标 的 方式 更 新 群体 P， 它 的 
复杂 度 为 0(CV2)07; d) 采用 文 配 关 系 更 新 Archive， 它 在 比较 
个 体 间 支 配 关系 时 的 复杂 度 为 0(Nlog™-?N) 071， 在 计算 个 体 
间 的 Lp- 范 数 距离 以 维护 多 样 性 时 的 复杂 度 为 0(mN?) 071。 一 
般 情 况 下 , 数据 集中 数据 点 的 个 数 n > 目标 个 数 m, 因 此 , 所 提 算 
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法 在 最 坏 情 况 下 总 的 时 间 复 杂 度 取 上 述 分 析 结 果 中 的 最 大 值 有 不 同形 状 和 维 数 的 数据 集 类 心 。 
max{O( Nlog"-? N),0 (nN?)). 为 了 检验 本 章 所 提 算 法 MODEAC-CD 的 有 效 性 ， 本 章 将 
它 与 上 述 算法 PSIMACDE、DEAFC DO 以 及 算法 RLCLu 进行 
了 比较 。 其 中 ， 前 三 种 算法 均 是 基于 微分 进化 的 自动 聚 类 ， 它 
3.1 实验 数据 描述 们 的 区 别 在 于 : 所 提 算 法 MODEAC-CD 采用 类 心 密度 策略 筛 

为 了 验证 所 提 算 法 MODEAC-CD 在 数据 聚 类 上 的 效果 ， 选 聚 类 中 心 ， 使 用 指标 Gc 和 G6 作为 聚 类 准则 函数 ， 提 高 了 聚 类 
选择 了 两 组 不 同类 型 的 实验 数据 。 第 一 组 数据 集 是 4 个 ”的 准确 性 ;算法 PSIMACDE 使 用 免疫 克隆 的 思想 来 保持 群体 
UCI(University of California, Irvine) 数 据 集 ， 该 数据 集 是 一 种 在 的 多 样 性 ， 并 使 用 指标 XBUTURI Sym index?! 作为 聚 类 准则 隙 
数据 挖掘 中 常用 的 公共 标准 测试 集 09。 第 二 组 数据 集 是 4 个 具 — Hu SHE DEAFC DO 采用 单个 指标 PMBP4 作 为 聚 类 准则 函数 ， 


3 ”仿真 实验 


T 


H 


有 球形 数据 特征 的 人 工 数据 集 00。 具 体 的 数据 属性 如 表 1 所 示 。 提出 了 一 种 基于 类 别 中 心 密度 排序 的 类 心 数 振荡 策略 ， 提 高 
表 1 数据 属性 描述 了 算法 的 局 部 搜索 能 力 。 所 提 算 法 MODEAC-CD 和 算法 RLCLu 
数据 集 ”数据 数目 GO ”数据 维 数 (d) Kb C) 的 主要 区 别 是 : 所 提 算 法 能 够 自动 识别 聚 类 中 心 ， 而 算法 
UCI 数据 集 
Diabetes 768 8 2 RLCLu 没有 使 用 任何 指标 作为 聚 类 准则 函数 且 只 能 通过 决策 
zo 2 : 1 图 人 工 选取 类 心 ， 从 而 增加 了 类 心 选取 的 不 确定 性 。 
Liver 345 6 2 ue 
人 工 数据 集 33 参数 设置 
Squarel 1000 2 4 RF " : "WE 
Square4 1000 2 4 在 每 个 聚 类 问题 中 ， 将 前 三 种 算法 各 自 独 立 运 行 20 次 以 
|a EE : : 统计 其 结果 。 为 了 保证 算法 对 比 的 公平 性 ， 规 定 前 3 种 算法 的 
32 比较 算法 介绍 停止 准则 都 为 目标 评价 次 数 达 到 给 定 的 最 大 值 即 
文献 [10] 设 计 了 两 种 基于 微分 进化 的 自动 聚 类 算法 "mb-0bj-max = 30020。 所 提 算 法 的 参数 设置 依据 实验 结果 调 


PSIMACDE 和 DEAFC_DO， 并 将 这 两 种 算法 与 经 典 的 三 种 自 。 试 得 到 , 算法 PSIMACDE 和 算法 DEAFC_DO 的 参数 设置 参照 


动 聚 类 算法 GADEP0、VGAPS2U、ACDEM 在 一 组 数据 集 上 进 “， 文献 [10]， 各 算法 具体 取 值 如 表 2 所 示 。 前 三 种 算法 的 交叉 概 
行 了 比较 。 结 果 显 示 ， 算 法 PSIMACDE 和 DEAFC DO 无 论 是 。 率 CR 在 [CRmin,CRmax] 中 随机 生成 .对 于 第 4 种 算法 RLCLu 
在 聚 类 的 类 别 数 还 是 准确 率 方面 ， 在 绝 大 多 数 数据 集中 均 优 于 “而 言 ， 在 不 改变 输入 参数 的 情况 下 ， 其 每 次 运行 所 得 的 聚 类 决 
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其 余 几 种 经 典 的 自动 聚 类 算法 。2014 4£, Rodriguez 等 人 在 ”和 贫 图 结果 均一 样 ， 所 以 操作 者 可 以 通过 决策 图 人 工 选取 局 部 密 


《Science》 上 提出 了 密度 峰 聚 类 算法 (RLCLu) 四 。 该 算法 介 ”上 度 相对 较 高 以 及 与 其 它 密度 更 高 的 点 之 间距 离 相对 较 大 的 点 作 


绍 了 一 个 数据 点 被 看 作 是 聚 类 中 心 ， 需 要 满足 两 个 基本 条 件 : 为 类 心 ， 来 统计 其 聚 类 结果 。 其 缺陷 是 对 于 一 些 特殊 数据 集 ， 


该 数据 点 被 密度 相对 较 低 的 邻 域 点 所 包围 ， 该 点 与 其 他 密度 更 ”通过 决策 图 人 工 选取 聚 类 中 心 时 容易 出 错 。 该 算法 只 需 提前 定 


高 的 点 之 间距 离 应 相对 较 大 。 算 法 RLC 通过 对 合成 数据 点 义 每 个 点 的 邻 域 个 数 占 总 个 数 的 百分比 即 可 ， 这 里 定义 百分比 
分 布 以 及 人 脸 数 据 库 数据 的 测试 ， 证 明了 该 算法 能 够 识别 出 具 参数 percent-2 。 


表 2 参数 设置 


算法 MODEAC-CD PSIMACDE DEAFC-DO 
F 0.8 + rand[0,1] :0.1 0.5 (rand[0,1] + 1) 0.5 (rand[0,1] + 1) 

Popsize 20 20 20 

KC uus 20 20 20 

CR max 1.0 1.0 1.0 

CR min 0.5 0.5 0.5 

bs 500 500 500 

3.4 实验 结果 与 分 析 D 作 图 法 实验 结果 与 分 析 


本 文 使 用 三 种 测度 : RKKA RAER adjusted 
rand index(ARDP5 以 及 作 图 法 将 所 提 算 法 MODEAC-CD 与 已 
有 算法 PSIMACDE. DEAFC DO 以 及 算法 RLCLu 进行 比较 。 
其 中 ， 算 法 所 得 聚 类 类 别 数 ， 越 接近 数据 真实 的 聚 类 数 越 好 ; 
算法 所 得 聚 类 正确 率 越 高 越 好 ; 对 于 评价 标准 AR 来 说 ， 有 两 
个 输入 变量 ， 一 个 是 正确 的 划分 结果 ， 另 一 个 是 实验 所 得 的 划 
分 结果 ， 它 统计 了 所 有 数据 项 在 这 两 种 划分 结果 中 成 对 出 现在 
同一 类 中 的 机 率 ， 该 值 越 大 聚 类 效果 越 好 。 


2. 3 是 四 种 算法 分 别 独 立 运行 20 次 后 ， 在 数据 集 
AD 5 2 和 数据 集 square4 上 ,得 到 的 最 好 聚 类 结果 。 其 中 x 轴 ， 
y 轴 为 各 个 数据 点 在 2 维 空间 上 的 坐标 表示 。 从 图 2 可 以 看 出 ， 
算法 MODEAC-CD、PSIMACDE 以 及 算法 RLCLu 将 数据 集 
AD 52 分 成 了 5 类 ， 与 该 数据 集 实际 分 类 数目 相符 ， 而 算法 
DEAFC_DO 只 将 该 数据 集 分 成 了 4 类 ， 不 符合 实际 分 类 数目 。 
从 图 3 中 可 以 看 出 ， 算 法 MODEAC-CD、PSIMACDE 以 及 算 
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法 RLCLu 将 数据 集 square4 分 成 了 4 类, 与 该 数据 集 实际 分 类  ” 同时 ， 也 可 以 看 出 和 其 它 3 种 算法 相 比 ， 算 法 DEAFC DO 不 
数目 相符 ; 此 外 ,可 观察 到 ， 所 提 算 法 MODEAC-CD 得 到 的 数 ”善于 处 理 那些 分 布 较为 紧凑 且 相 对 复杂 的 数据 集 。 此 外 ， 由 于 
据 分 布 比 算法 PSIMACDE 以 及 算法 RLCLu 更 为 均匀 合理 , 这 ”算法 RLCLu 在 聚 类 过 程 中 ， 同 时 考虑 了 类 心 的 局 部 密度 以 及 
得 益 于 所 提 算 法 提出 的 类 心 密度 策略 。 而 算法 DEAFC DO 仅 。 类 心 之 间 的 距离 ,所 以 也 取得 了 不 错 的 聚 类 效果 。 从 图 3 的 (gq) 
将 数据 集 square4 分 成 了 2 类 ， 不 符合 该 数据 集 的 实际 分 类 数 ” 中 也 可 以 看 到 ， 在 这 些 由 各 个 类 核心 点 组 成 的 类 的 周围 还 分 布 
目 。 出 现 这 种 情况 ， 主 要 因为 算法 DEAFC DO 为 单 目 标 自动 着 许多 其 它 的 点 ， 我 们 将 这 些 点 称 作 噪声 点 或 者 离 群 点 ， 而 算 
聚 类 算法 ， 而 其 余 两 种 基于 微分 进化 的 算法 为 多 目标 自动 聚 类 — dE RLCLu 很 好 地 将 这 些 我 们 不 需要 的 点 筛选 了 出 来 ， 表 明了 


mt 


算法 。 因 此 ， 多 目标 聚 类 算法 在 整体 上 可 以 获得 比 单 目 标 聚 类 该 算法 具有 不 错 的 聚 类 性 能 。 
算法 更 优 的 划分 结果 。 这 得 益 于 多 目标 聚 类 方法 采用 了 两 个 2) 聚 类 数 及 ARI 测度 的 实验 结果 与 分 析 
标 函 数 ， 同 时 优化 了 聚 类 的 类 内 距离 和 类 间距 离 两 个 指标 ， 将 四 种 算法 在 两 种 类 型 的 数据 集 上 独立 运行 20 次 后 , 表 3 
此 可 以 提高 解 的 聚 类 质量 ,避免 只 偏向 于 一 个 目标 函数 的 缺点 。 给 出 了 各 算法 得 到 的 聚 类 数 及 ARI 的 均值 和 方差 。 
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图 2 4 种 算法 在 数据 集 AD_ 5 2 上 的 聚 类 结果 
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(a) MODEAC-CD x (b) PSIMACDE x (c) DEAFC-DO x (d) RLCLu x 
图 3 4 种 算法 在 数据 集 Square4 上 的 聚 类 结果 
表 3 聚 类 数 及 测度 ART 的 均值 和 方差 
MODEAC-CD PSIMACDE DEAFC DO RLCLu 
UCI 数 据 “实际 类 RO ARI 聚 类 数 ARI 聚 类 数 ARI 聚 类 数 ARI 
集 心 数 
Diabetes 2 2.00+0.000 0.3759+0.0343 2.300.732 0.3617+0.0137 2+0 0.3363+0.0278 2.40+0.547 0.2595+0.0072 
Iris 3 3.05+0.223 0.8244+0.0591 4.25+2.099 0.8547+0.0606 2+0 0.8162+0.0066 2.75+2.750 0.6370+0.2274 
Glass 6 4.90+1.209 0.4608+0.0307 4.10+1.165 0.4178+0.0278 240 0.4221+0.0038 2.750.957 0.3220+0.0723 
Liver 2 2.00+0.000 0.2520+0.0050 2.50+0.827 0.2483+0.0050 240 0.2454+0.0010 3.801.169 0.2461+0.0016 
人 工 数据 “实际 类 EE ARI 聚 类 数 ARI 聚 类 数 ARI 聚 类 数 ARI 
Squarel 4 4.05+0.223 0.9450+0.0206 4.05+0.223 0.9650+0.0189 4+0 0.9696+0.0030 3.50+0.707 0.8405+0.1954 
Square4 4 4.00+0.000 0.8014+0.0380 4.80+1.056 0.8333+0.0500 2+0 0.6634+0.0142 3.00+1.000 0.7748+0.0855 
Longl 2 2.000.000 1.0000+0.0000 2.00+0.000 1.0000+0.0000 2+0 1.0000+0.0000 2.00+0.000 1.0000+0.0000 


AD 52 5 5.000.324 — 0.878820.0473 5.35+0.875 0.8536+0.0622 4+0 0.8100+0.1189 4.80+1.483 0.7776+0.0910 
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从 表 3 中 各 算法 得 到 的 聚 类 数 均 值 和 方差 情况 ， 我 们 可 以 ” ”数据 集 四 组 数据 中 的 三 个 表现 出 了 最 好 的 聚 类 效果 ， 在 人 工 数 
看 出 ， 所 提 算 法 MODEAC-CD 在 测试 的 8 组 数据 集中 ， 有 7 HÆ longi 和 AD 5 2 上 取得 了 最 好 的 聚 类 性 能 。 算 法 
组 数据 集 的 聚 类 数 最 好 ， 也 最 接近 数据 集 的 实际 类 数 ， 并 且 所 ”PSIMACDE 在 数据 集 Iris, Squared. 上 表现 出 最 好 的 聚 类 性 能 。 
得 聚 类 方差 也 最 小 ， 从 而 表明 了 所 提 聚 类 算法 具有 很 好 的 稳定 。 算法 DEAFC DO 在 数据 集 Squarel 上 表现 出 最 好 的 聚 类 性 
性 。 算 法 PSIMACDE 在 人 工 数据 集 上 得 到 的 聚 类 数 总 体 表现 能。 算法 RLCLu 在 人 工 数 据 集聚 类 方面 表现 出 相对 不 错 的 聚 
效果 不 错 。 算 法 DEAFC DO 在 人 工 数据 集 Squarel. Longl ”类 性 能 ,此 外 , 可 以 观察 到 这 四 类 算法 在 UCI 数据 集 上 得 到 的 
E, UCI 数据 集 Diabetes, Liver. 上 得 到 的 聚 类 数 表 现 不 错 。 算 00 ARI 值 总 体 效 果 并 不 是 很 好 , 这 也 验证 了 随 着 数据 集 特征 维 数 
法 RLCLu 在 数据 集 Iris、Longl、AD_5 2 上 表现 出 不 错 的 聚 。” 的 增多 ， 数 据 正 确 聚 类 的 难度 也 随 之 增加 。 
类 性 能 。 表 4 给 出 了 各 算法 独立 运行 20 次 后 ， 得 到 的 聚 类 准确 率 

从 表 中 各 算法 得 到 的 ARI 测度 均值 和 方差 情况 , 我们 可 以 ”均值 和 方差 。 
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看 出 : 与 其 余 三 种 算法 相 比 ， 所 提 算 法 MODEAC-CD 在 UCI 
RA 准确 率 的 均值 和 方差 
MODEAC-CD PSIMACDE DEAFC DO RLCLu 
UCI 数 据 集 准 确 率 的 均值 和 方差 
Diabetes 89.264341.8566 84.974045.5603 86.7253x1.0616 83.5677-2.1463 
Iris 89.4667-4.2473 91.800023.4069 86.6667:0.0000 81.833411.4746 
Glass 69.649523.1977 67.5700451.4668 63.481340.1045 60.8879-5.4025 
Liver 77.087020.7839 74.34784x5.1736 77.0580+0.2160 70.7246+7.7213 
人 工 数据 集 准确 率 的 均值 和 方差 

Squarel 97.875020.8213 98.40002x1.9404 98.855020.1150 96.90004-3.2527 
Square4 91.765020.6459 91.4950+1.9014 68.9050+0.5316 83.933+13.1702 
Longl 100.0002-0.0000 100.00020.0000 100.000240.0000 100.000-0.0000 
AD 52 94.2600242.2338 94.0600+2.4701 79.5800+0.6678 84.8000+7.1889 


表 4 结果 显示 ， 所 提 算 法 MODEAC-CD 在 六 组 数据 集 上 住 确 率 均 为 100% ， 表 明了 各 算法 均 对 该 数据 集 ; 
的 聚 类 准确 率 最 高 , 算法 PSIMACDE 在 数据 集 Iris 上 的 准确 率 聚 类 。 
最 高 ， 算 法 DEAFC DO 在 数据 集 Squarel 上 的 聚 类 准确 率 最 K 5 给 出 了 各 算法 独立 运行 20 次 后 ， 得 到 的 运行 时 间 均 
> 高 , 而 算法 RLCLu 在 数据 集 Squarel 和 Longl 上 的 准确 率 相 — fü. 
三。 对 不 错 。 此 外 , 可 以 看 出 这 四 种 算法 在 数据 集 Longl 上 的 聚 类 
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C 表 5 算法 运行 时 间 的 比较 
MODEAC-CD PSIMACDE DEAFC DO RLCLu 

UCI 数 据 集运 行 时 间 的 均值 Cs) 
Diabetes 130.942 29.317 36.353 4.861 
Iris 109.353 5.780 8.275 4.557 
Glass 156.049 7.222 11.183 4.980 
Liver 129.090 11.311 17.552 3.884 
人 工 数据 集运 行 时 间 的 均值 Cs) 

Squarel 93.189 36.860 62.644 7.405 
Square4 88.912 36.680 44.970 6.803 
Longl 81.773 36.084 41.703 4.482 
AD 52 72.550 9.718 14.289 6.796 


表 5 可 见 ， 与 其 他 三 种 算法 相 比 ， 所 提 算 法 MODEAC- ”偏离 数据 集 的 缺陷 ， 同 时 防止 选择 的 类 心 过 于 集中 。 考 虑 到 本 
CD 花费 的 平均 运行 时 间 相 对 较 长 。 原 因 是 所 提 算 法 采用 的 类 文 研 究 的 数据 自动 聚 类 问题 是 一 类 离线 优化 问题 ， 对 算法 的 实 
心 筛 选 策略 需要 消耗 比较 多 的 计算 资源 ， 但 该 策略 能 够 有 效 地 ”时 性 要 求 不 高 ， 因 此 所 提 算 法 的 运行 时 间 在 可 接受 的 范围 内 。 
选择 较 好 的 聚 类 中 心 ， 改 善 了 由 于 算法 随机 性 导致 的 类 心 容 易 
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综合 表 3 和 4 可 以 发 现 ， 所 提 算 法 MODEAC-CD 在 大 部 
分 数据 集 上 得 到 的 类 别 数 、 聚 类 正确 率 以 及 ARI 指 标 值 均 最 好 ， 
体现 了 所 提 算 法 策略 设计 的 有 效 性 。 此 外 ， 也 可 以 看 出 : 
a) 所 提 算 法 MODEAC-CD 在 大 部 分 数据 集 上 ， 得 到 的 方 
差 均 较 小 ， 表 明了 所 提 算 法 具有 较 稳 定 的 搜索 性 能 。 
bo 在 大 多 数 问题 中 , 如 果 算 法 所 得 聚 类 类 别 数 越 接 近 数 据 
真实 类 别 数 ， 则 其 聚 类 准确 率 越 高 ， 测 度 ARI 值 也 越 大 。 
c) 这 四 种 算法 在 解决 具有 球形 数据 特征 的 人 工 数据 集 时 ， 
总 体 上 能 够 表现 出 更 好 的 聚 类 效果 ， 而 相 比 之 下 ， 在 解决 数据 
特征 维 数 较 高 或 较为 复杂 的 数据 集 (如 UCI 数据 集 ) 时 ， 还 表 
现 出 不 足 ， 有 待 进一步 研究 。 

d) 各 算法 在 数据 集 square4 和 数据 集 AD 5 2 所 得 结果 ， 
很 好 地 验证 了 图 2、3 所 呈现 的 效果 。 
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为 了 在 事先 不 知道 待 聚 类 问题 聚 类 个 数 的 情况 下 ， 仍 然 能 
够 较为 准确 地 聚 类 ， 本 文采 用 了 实数 定 长 的 个 体 编码 方式 以 实 
现 自动 聚 类 ， 为 了 有 效 避 免 因 算法 本 身 的 随机 性 导致 的 错误 聚 
类 ， 本 文 提出 了 采用 类 心 密度 策略 的 多 目标 微分 自动 聚 类 算法 
MODEAC-CD. 。 所 提 类 心 密度 策略 能 够 在 数据 集聚 类 前 ， 对 算 
法 随机 选择 的 某 些 偏离 数据 集 或 者 分 布 过 于 集中 的 类 心 进行 
选 ， 不 让 其 参与 聚 类 ， 为 了 使 算法 能 较 快 地 得 到 最 优 类 心 ， 提 
出 了 改进 的 聚 类 准则 函数 ， 对 聚 类 数目 进行 动态 地 惩罚 。 将 所 
提 算 法 MODEAC-CD 和 其 余 两 种 性 能 较 优 的 自动 聚 类 算法 以 
及 经 典 聚 类 算法 RLCLu, 在 两 种 不 同类 型 的 数据 集 上 进行 了 比 
较 , 结果 表明 , 所 提 算 法 MODEAC-CD 具有 更 优 的 聚 类 效果 ， 
它 在 大 多 数 问题 中 得 到 的 聚 类 数目 与 数据 集 实际 分 类 数目 相符 
或 更 为 接近 ， 且 具有 更 高 的 ARI 性 能 和 聚 类 准确 率 ， 从 而 表明 
本 文 算法 采用 的 策略 是 可 行 而 有 效 的 。 
然而 ， 在 聚 类 的 过 程 中 ， 发 现 所 提 算 法 对 某 些 复杂 结构 数 
的 聚 类 效果 不 是 很 好 。 如 本 文中 提 到 的 glass 数据 集 , 该 数 
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据 集 
据 集中 各 秘 类 所 包含 的 数据 个 数 差异 悬殊 ， 并 且 各 数据 之 间 分 


布 相对 紧密 ， 使 得 算法 对 其 聚 类 造成 了 一 定 困难 。 因 此 ， 如 何 
选择 更 有 效 的 聚 类 机 制 ， 解 决 此 类 数据 集聚 类 问题 ， 将 是 下 一 
步 研究 的 内 容 。 


参考 文献 : 


[1] Zitler E, Deb K, Thiele L. Comparison of multi-objective evolutionary 
algorithms: empirical results [J]. Evolutionary Computation, 2000, 8 (2): 
173-195. 

[2] Storn R, Price K. Differential evolution: a simple and efficient heuristic for 
global optimization over continuous spaces [J]. Journal Global Optimization, 
1997, 11 (4): 341-359. 

[3] Tam H H, Ng S C, Andrew L, et al. Improved activation schema on 
automatic clustering using differential evolution algorithm [C]// Proc of 


IEEE Congress on Evolutionary Computation. 2017: 1749-1756. 


PEF, P: RR AE Ro d d 

[4] Swagatam D, Ajith A, Amit K. Automatic clustering using an improved 
differential evolution algorithm [J]. IEEE Trans on Systems, 2008, 38 (1): 
218-237. 

[5] Saha I, Maulik U, Bandyopaghyay S. A new differential evolution based 
fuzzy clustering for automatic cluster evolution [C]// Proc of IEEE 
International Advance Computing Conference. 2009: 706-711. 

[6] Maulik U, Saha I. Automatic fuzzy clustering using modified differential 
evolution for image classification [J]. IEEE Trans on Geoscience and 
Remote Sensing, 2010, 48 (9): 3503-3510. 

[7] Rodriguez A, Laio A. Clustering by fast search and find of density peaks [J]. 
Science, 2014, 344 (6191): 1492-1496. 

[8] 李涛 ,， 葛 洪 伟 ， 苏 树 智 .自动 确定 聚 类 中 心 的 密度 峰 聚 类 DI. 计算 机 
科学 与 探索 , 2016, 11 (10): 1614-1622. (Li Tao, Ge Hongwei, Su Shuzhi. 
Automatic determination of density peak clustering in cluster center [J]. 
Computer Science and Exploration, 2016, 11 (10): 1614-1622. ) 

[9] Ye Xuanzuo, Li Dinghao, He Xiongxiong. An algorithm for automatic 
recognition of cluster centers based on local density clustering [C]// Proc of 
the 29th Chinese Control and Decision Conference. 2017: 1347-1351. 

[10] 起 小 龙 . 基于 改进 的 差分 进化 自动 聚 类 算法 研究 [D] 西安 : 西安 电子 
科技 大 学 ,2013. (Wu Xiaolong. Research on improved automatic clustering 
algorithm based on differential evolution [D]. Xi”an: Xidian University, 
2013.) 

[11] 李 建 . 聚 类 融合 研究 及 其 应 用 [D] 哈尔滨 : 哈尔滨 工程 大 学 ,2014. (Li 
Jian. Research and application of cluster fusion [D]. Harbin: Harbin 
Engineering University, 2014. ) 

[12] KÄE, RMA. 最 优 聚 类 个 数 和 初始 聚 类 中 心 点 选取 算法 研究 [J]. 
计算 机 应 用 研究 , 2017, 34 (6): 1617-1620. (Zhang Sujie, Zhao Huaici. 
Research on optimal clustering number and initial clustering center selection 
algorithm [J]. Application Research of Computers, 2017, 34 (6): 1617-1620. ) 

[13] 歼 凡 ， 王 新 ， 和 了 晓 萍 . 一 种 基于 局 部 密度 的 K-means 算法 [D]. ZAR 
族 大 学 学 报 : 自然 科学 版 , 2014, 23 (6): 439-442. (Li Fan, Wang Xin, He 
Xiaoping. A K-means algorithm based on local density [J]. Journal of 
Yunnan famous university: Natural Science Edition, 2014, 23 (6): 439-442.) 

[14] Ding Jie, Noshad M, Tarokh V. Learning the number of autoregressive 
mixtures in time series using the gap statistics [C]// Proc of the 15th IEEE 
International Conference on Data Mining. 2015: 1441-1446. 

[15] Nafchi H Z, Shahkolaei A. Mean deviation similarity index: efficient and 
reliable full-reference image quality evaluator [J]. IEEE Access. 2016 (4): 
5579 — 5590. 

[16] Zitzler E, Kunzl S. Indicator-based selection in multi-objective search, "in 
parallel problem solving from nature [C]// Proc of International Conference 
on Parallel Problem Solving from Nature. 2004: 832-842. 

[17] Wang Handing, Jiao Licheng, Yao Xin. Two Arch2: an improved two- 
archive algorithm for many-objective optimization [J]. IEEE Trans on 
Evolutionary Computation, 2015, 19 (4): 524-541. 


[18] Aggarwal C C, Hinneburg A, Keim D A. On the surprising behavior of 


201808.00099v1 


chinaXiv 


录用 稿 


distance metrics in high dimensional space [C]// Proc of International 
Conference on Database Theory. 2001: 420-434. 

[19] Zhang Li, Zhang Chengjin, Xu Qingyang, et al. Weigted-KNN and its 
application on UCI [C]// Proc of IEEE International Conference on 
Information and Automation. 2015: 1748-1750. 

[20] KunduD, SureshK, GhoshS. Automatic clustering using a synergy of g 
enetic algorithm and multi-objective differential evolution [C]// Proc of 
International Conference on Hybrid Artificial Intelligence Systems. 2009: 
177-186. 

[21] Bandyopadhyay S, Saha S. A point symmetry based clustering technique for 
automatic evolution of clusters [J]. IEEE Trans on Knowledge and Data 
Engineering, 2008, 20 (11): 1-17. 


[22] Gao Bo, Wang Jun. Multi-objective fuzzy clustering for synthetic aperture 


PETF, Y: 


radar imagery [J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12 
(11): 2341-2345. 

[233] & x5]. 差分 演化 算法 的 改进 及 其 在 聚 类 分 析 中 的 应 用 研究 [D] X 
汉 : 中 国 地 质 大 学 , 2010. (Gong Wenyin. Improvement of differential 
evolution algorithm and its application in clustering analysis [D]. Wuhan: 
China University of Geosciences, 2010. ) 

[24] Ashok P, Kadhar G M. Detecting outliers on uci repository datasets by 
adaptive rough fuzzy clustering method [C]// Proc of Online International 
Conference on Green Engineering and Technologies. 2016: 1-6. 

[25] Park S, Choi H, Lee B. hc-OTU: a fast and accurate method for clustering 
operational taxonomic units based on homopolymer compaction [J]. 
IEEE//ACM Trans on Computational Biology and Bioinformatics, 2018, 15 


(2): 441-451. 


